Parallel areas detection in multi-documents for multilingual alignment (Détection de zones parallèles à l'intérieur de multi-documents pour l'alignement multilingue) [in French]
نویسندگان
چکیده
Parallel areas detection in multi-documents for multilingual alignment This article broaches a central issue of the automatic alignment : diagnosing the parallelism of documents. Previous research was concentrated on the analysis of documents which are parallel by nature such as corpus of regulations, technical documents or simple sentences. Inversions and deletions/additions phenomena that may exist between different versions of a document has often been overlooked. To the contrary, we propose a method to diagnose in context the parallel areas allowing the detection of deletions or inversions between documents to align. This original method is based on the freeing from word and sentence as well as the consideration of the text formatting. The implementation is based on the detection of repeated character strings and the identification of parallel segments by image processing. MOTS-CLÉS : détection et alignement de zones, appariement de N-grammes de caractères, corpus de multidocuments.
منابع مشابه
Séparation des Solutions aux Modèles Géométriques Direct et Inverse pour les Manipulateurs Pleinement Parallèles
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملUne architecture semi-supervisée et adaptative pour le filtrage d'alarmes dans les systèmes de détection d'intrusions sur les réseaux
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملDétection d'attaques dans un système WBAN de surveillance médicale à distance. (Attacks detection in a WBAN system for remote medical monitoring)
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملAutomatic identification of document sections for designing a French clinical corpus (Identification automatique de zones dans des documents pour la constitution d'un corpus médical en français) [in French]
Résumé. De nombreuses informations cliniques sont contenues dans le texte des dossiers électroniques de patients et ne sont pas directement accessibles à des fins de traitement automatique. Pour pallier cela, nous préparons un large corpus annoté de documents cliniques. Une première étape de ce travail consiste à séparer le contenu médical des documents et les informations administratives conte...
متن کاملRecherche par le contenu dans des documents audiovisuels multilingues
RÉSUMÉ. Nous présentons dans cet article une approche basée sur l’utilisation de l’Alphabet Phonétique International (API) pour l’indexation et la recherche par le contenu de documents audiovisuels multilingues. L’approche fonctionne même si les documents contiennent des langues inconnues. Elle a été validée dans le cadre de la compétition « Star Challenge » sur les moteurs de recherche organis...
متن کامل